Dimensionalidad dual para atención local y global Descubre cómo la atención adaptativa por distancia reduce el tamaño del caché KV en transformers, manteniendo el rendimiento con representaciones de menor 2026-06-18 · 2 min